home *** CD-ROM | disk | FTP | other *** search
/ EnigmA Amiga Run 1998 July / EnigmA AMIGA RUN 29 (1998)(G.R. Edizioni)(IT)[!][issue 1998-07 & 08].iso / earkit / browser / alynx / orig / crawl.announce < prev    next >
Text File  |  1998-05-24  |  4KB  |  95 lines

  1. The TRAVERSAL code from old versions of Lynx has been upgraded by David
  2. Mathog (mathog@seqaxp.bio.caltech.edu) so that it works again, can be
  3. implemented via a command line switch (-traversal) instead of via a
  4. compilation symbol for creating a separate Lynx executable as in those
  5. previous versions, and can be used in conjunction with a -crawl switch
  6. to make Lynx a front end for a Web Crawler.
  7.  
  8.  
  9. Usage:
  10.  
  11.    lynx [-traversal] [-crawl] ["startpage"]
  12.  
  13.  
  14. Added switches are:
  15.  
  16.   -traversal      Follow all links that begin with the startpage.  If 
  17.                   startpage isn't specified then the crawl begins with
  18.                   the default start page.
  19.  
  20.   -crawl          With [-traversal] outputs each unique hypertext page
  21.                   as an lnk###########.dat file in the format specified
  22.                   below.  With [-dump] outputs only the startpage, in
  23.           the same format, to stdout.
  24.  
  25.  
  26. Note on startpage:
  27.  
  28.                   If a startpage is specified and contains any uppercase
  29.           characters, on VMS it should be enclosed in double-quotes.
  30.           The code that verifies that "startpage" is in any URL to
  31.           be traversed is case sensitive, and startpage will go to
  32.           all lowercase on VMS if no double-quotes are supplied.
  33.  
  34.  
  35. Files created and/or used with the -traversal switch, based on definitions
  36. in userdefs.h:
  37.  
  38. TRAVERSE_FILE (traverse.dat):
  39.                   Contains a list of all URLs that were traversed.  Note
  40.                   that if a URL appears in this file it will not be 
  41.                   traversed again (important if runs are started and 
  42.                   stopped).  Placing an entry in this file BEFORE the
  43.                   run will block traversal of that URL.  Unlike reject.dat
  44.                   a final * has no effect (see below).
  45.  
  46. TRAVERSE_FOUND_FILE (traverse2.dat):
  47.                   Contains a list of all URLs in the order traversed.  A 
  48.                   URL may be present in this list many times.  To simplify
  49.                   the list, on VMS use:  sort/nodups traverse2.dat;1 ;2
  50.  
  51. TRAVERSE_REJECT_FILE (reject.dat):
  52.                   Contains a list of URLs that have been rejected from the
  53.                   traversal.  Once a URL has been entered in this list, it
  54.                   will not be traversed.  URLs that end in a * will cause
  55.           rejection of all URLs that match up to the character before
  56.           the *. So for instance, to reject all htbin references on a
  57.           site put this line in the reject.dat file BEFORE starting
  58.           the run:  http://www.site.wherever:8000/htbin*
  59.  
  60. TRAVERSE_ERRORS (traverse.errors):
  61.           A list of links that evoked mailings to the document
  62.           owner if MAIL_SYSTEM_ERROR_LOGGING was defined in
  63.           userdefs.h (not recommended!!!). 
  64.  
  65.  
  66. Files created during traversals if the -crawl switch is included with the
  67. -traversal switch:
  68.  
  69. lnk########.dat   Numbered output files containing the contents of traversed
  70.           hypertext documents in text format.  All hypertext links
  71.           within the document have been stripped, and the URL and
  72.           TITLE of the document are recorded as the first two lines,
  73.           e.g., for the seqaxp.bio.caltech.edu home page the first
  74.           two lines will be:
  75.  
  76.                   THE_URL:http://seqaxp.bio.caltech.edu:8000/
  77.                   THE_TITLE:SAF Web server home page
  78.  
  79.                   The VMSIndex software is being adapted to use this
  80.           information to extract the corresponding URL and TITLE
  81.           for use in indexing the lnk########.dat files, e.g.:
  82.  
  83.                   $ build_index -
  84.                     /url=(text="THE_URL:") -
  85.                     /topic=(text="THE_TITLE:",EXCLUDE) -
  86.                     /output=INDEX_NAME -
  87.                     lnk*.dat
  88.  
  89.           A clever person should be able to figure out a way to
  90.           index the lnk########.dat files on Unix as well.
  91.  
  92.  
  93. This functionality is still under development.  Feedback and suggestions
  94. are welcome.
  95.